科研星球

统计学教程:常见统计学的基本概念

1.总体与样本;参数与统计量

下载.jpeg


想要了解某个条件下总体的全部情况,但是客观条件有限,仅能通过一部分样本来推测总体的情况。为了更加科学合理的选取样本、描述样本、推断总体,就是我们学习应用统计学要解决的问题。故我们应该掌握在统计过程中运用到的关于总体与样本的术语:


(1)总体(population)与参数(parameter)


是一个或一组对象,代表了感兴趣的特定分组或类别的所有成员。例如想要知道哈佛大学全职终身教师的平均收入水平,那么对每一位哈佛大学全职终身教师的收入情况的统计就构成我们观察的总体。如果搜集这些数据并计算均值,就可得到一个参数——参数是来自于总体,并适用于总体的值。在统计学中,参数用希腊字母表示,如均值μ、标准差σ、概率π等等。


(2)样本(sample)与统计量(statistic)


根据随机化原则,从总体中随机抽取一定数量的个体,组成样本。例如,因为种种原因,我们并不能获取每位哈佛大学全职终身教师的收入情况。在这种情况下,我们可以从该校全职教师的名单上随机选取教师的一个子集,然后计算这个子集的平均收入。这样的集合就是样本,集合包含的观察单位数称为该样本的样本含量(sample size),从样本中计算出的均值称为统计量——统计量是从样本数据中计算出的值。在统计学中,统计量用英语字母标志,如均值x͞,样本标准差s,样本率p等等。




2.抽样问题


从总体中抽取部分观察单位的过程称为抽样(sampling),为了保证样本的代表性,抽样时必须遵循随机化(randomization)原则。随机抽样的最大好处就是可以保证样本与抽样总体之间的差异是随机的,而不是系统性的,即不会是抽样的结果出现一边倒的情况(系统误差)。例如,研究者从心理卫生服务机构接待的孩子中选取样本,于是就可能选择比普通孩子更有可能抑郁的孩子。

到底怎样才算是随机抽样呢?用统计学的术语来说,指的是总体中的每一个对象被选入样本的概率相等。请注意,随机抽样和随意抽样是两个截然不同的概念。



3.误差

误差(error)泛指实测值与真值之间,按照其产生原因和性质可粗分为随机误差(random error)与非随机误差(nonrandom error)两大类,后者又可分为系统误差(systematic error)与非系统误差(nonsystemstic error)两类。
3.1  随机误差    是一类不恒定、随机变化的误差,由多种尚无法控制的因素引起。例如,在实验过程中,在同一条件下对同一对象反复进行测量,虽极力控制或消除系统误差后,每次测量结果仍会出现一些随机变化,即随机测量误差, 以及在抽样过程中由于抽样的偶然性而出现的抽样误差。

  • 随机误差是不可避免的,在大量重复测量中,或在抽样过程中,它可出现或大或小或正或负的,呈一定规律性的变化。但由于造成随机误差的影响因素太多太复杂,以至无法掌握其具体规律。随着科学的发展与社会的进步,有些随机误差可能会逐渐被认识而得以控制。随机误差呈正态分布,可用医学统计学的方法进行分析。统计分析主要是针对抽样误差而言的,在接下来的推文中我们会详细的谈及。

3.2 系统误差    是实验过程中产生的误差,它的值恒定不变,或遵循一定的变化规律, 其产生原因往往是可知的或可能掌握的。例如,可能来自于受试者抽样不均匀,分配不随机,可能来自于不同实验者个人感觉或操作上的差异,可能来自于不标准的仪器,也可能来自于外环境非实验因素的不平衡等。因而应尽可能设法预见到各种系统误差的具体来源,力求通过周密的研究设计和严格的技术措施加以消除或控制。

3.3 非系统误差    在实验过程中由研究者偶然失误而造成的误差。例如,仪器失灵抄错数字、点错小数点、写错单位等,亦称为过失误差(gross error)。这类误差应当通过认真检查核对予以清除,否则将会影响研究结果的准确性。



4.变量类型与变量类型间的转化


确定研究总体之后,研究者应当对每个观察单位的某项特征进行观察或测量(如身高、性别、年龄、教育程度等),这些特征能表现观察单位的变异性,称为变量(varible),对变量的观测值称为变量值(value of varible)或观察值(observed value),由变量值构成资料(data)。相反,如果在一个样本中,每个观察对象都是男性,那么“性别”分类就是一个常量(constant)。


因为统计学往往是在同质性的样本总体中发现异质性,故我们往往更加关注变量的特性。根据变量的定量的或者定性的,可将资料分为以下几种类型:

  1. 计量资料    计量资料(measurement data)又称定量资料(quantitative data)或数值变量资料(numerical variable data)。为观测每个观察对象某项指标的大小而获得的资料,其变量值是定量的,表现为数值的大小,一般有度量单位。根据其观测值是否连续,又可以分为连续型(continuous)或离散型(discrete)两类。前者可在实数范围内取任意值,如身高、体重、血压;后者只能取整数值,如某医院每年就诊的患者数等等。

  2. 计数资料    计数资料(enumeration data)或定性资料(qualitative data)或无序分类变量(unordered categorical variable)资料,亦称为名义变量(nominal variable)资料。为将观察单位按照某种属性或者类别分组计数,分组汇总各组观察单位数后而得到的资料。其变量值是定性的,表现为互斥的属性或类别,如试验结果为阴性阳性、家族史的有无等。分为两种情形:

    (1)二分类:如检测某小学学生接受大便中的蛔虫卵情况,以每个学生为观察单位,结果可报告为蛔虫卵阴性与阳性两类;如观察某药治疗某丙患者的疗效,以每个患者为观察单位,结果可归纳为治愈与未愈两类。两类间互相对立,互不相容。

    (2)多分类:如观察某人群的血型分布,以人为观察单位,结果可分为A型、B型、AB型和O型,为互不相容的四个类别。

  3. 等级资料     等级资料(ranked data)又称半定量资料(semi-quantitative data)或有序分类变量(ordinal categorical data)资料。为将观察单位按某种属性的不同程度分为不同等级后分组计数,分类汇总各组观察单位数后而得到的资料。其变量值具有半定量性质,表现为等级大小或者属性程度。如观察用某药治疗某病疗效,以每名患者为观察单位,结果可分为治愈、显效、好转、无效四个等级。

  4. 计量资料(定量)→等级资料(半定量)→计数资料(定性)转换:在资料分析过程中,在有关专业理论指导下,各类资料间可以互相转化,以满足不同统计分析方法的要求。

  • 例如, 以人为观察单位观察某人群脉搏数(次/分),属计量资料;若根据医学专业理论,定义脉搏数在60~ 100次/分为正常,<60次/分为脉缓,> 100次/分为脉速,按“缓脉”、“正常”与“速脉”三个等级分别清点人数,汇总后可转化为等级资料。若定义脉搏数在60~ 100次/分为正常,<60次/分或> 100次/分为异常,按“正常”与“异常”两种属性分别清点人数,汇总后可转化为计数资料。以上的例子是先获取计量资料后向等级资料和计数资料的转化,只要能在专业理论的支持下,确定不同属性或不同等级的数量界限,这种转化是不难实现的。同样的,等级资料可以向计数资料转换,如观察某药治疗某病的疗效中,含有“治愈、显效、好转、无效”四个等级的等级资料可以转化成“治愈、未愈”的二分类资料。

  • 这提示我们在研究设计中,对于能测量的指标,尽可能设计为定量指标,这将为分析中的资料转化带来方便。

注意:统计分析方法的选用,与资料类型密切相关。从系列推文的开始,我们得牢牢掌握这些基础知识,以便后期随时调用。



5.研究设计


社会科学家用到很多种研究方法与设计,包括实验设计(experimental design)和相关性研究设计(correlational research designs)。


  • 实验设计:实验者将样本中的观察分成不同组,然后就感兴趣的一个或多个变量进行组间比较。例如,学校领导可能想知道新的数学课程方案是否比旧方案更好。选取一个由40名学生组成的样本,随机分配(random assignment)其中20名使用旧课程方案,另外20名则使用新课程方案。然后检验各组,看哪组学到的数学知识更多。其中使用随机分配方式将学生分成两组,目的是使两组间的任何重要差异都在两组之间平均分布,从而两组考试分数的任何差异只能归因于两种课程教学方案的效果差异。当然,事实可能并非如此,可能与学生的学习能力、兴趣爱好等多方面因素有关,但在此假设的案例中我们暂且认为除接受的课程不一致外,其他因素均一致。


  • 相关性研究设计:也是社会科学中常用的研究方法。在这类研究中,参与者通常不经过随机分组,研究者一般也不能施加实际控制。相反,研究者只能收集若干变量的数据,然后进行某些统计分析以确定不同变量之间彼此相关的强度。例如,某企业老板感兴趣的问题可能是:雇员的生产率是否与其(在家而非上班时间的)睡眠时间相关?于是,可选取一个包括100名成年工人在内的样本,测量其工作生产率以及给定一周内平均每晚的睡眠时间,也许就会发现睡眠时间与生产率之间存在强相关关系。现在我们想从逻辑上论证这说得通,因为工人只有休息好才能努力工作,也才更有效。尽管这一结论言之成理,但仅凭具有相关性的数据就得出如此结论则过于穿凿。相关性研究只能提供变量间是否相关的信息,而不能得出关于因果关系的结论。别忘了,还有一种可能是更有效的工作导致了在家睡眠时间更长,也许顺利完成工作可以舒缓压力,也许可以让工人早上多睡一会儿, 不管哪种情况都会造成更长时间的睡眠。


小结一下两种研究的区别:


1.在实验研究设计中,研究者能够将导致因变量(dependent variables)波动或改变的特定自变量(independent variables)分离出来。在该例子中,数学课程方案是自变量,学生考试成绩是因变量,鉴于自变量在我的控制之下,从而能够合理认定所用数学课程方案类型影响学生考试分数的结论。但实验设计的主要缺陷是很难在不受干扰的条件下完成,从而难以在真实世界的情形中得到一般化。例如, 在此项研究中,我们很难保证数学课程方案是影响考试成绩的唯一因素,还有一些与课程方案无关的其他因素能够影响考试成绩,比如两组学生在数学学习能力上原本就有的差异,或者教师风格(思路清晰或热情投人)的差异。


2.相关性研究设计的优势是往往比实验研究更易于实施,能够相对容易地包括多个变量,并允许研究者同时考察多个变量。相关性研究的主要缺陷是无法施加精准控制,而精准控制却是得出关于变量之间因果联系的结论所必需的。



6.统计描述之分布与图表:  


统计学家花费大量时间来讨论分布(distributions)。 简言之,分布就是变量数据或取值的一个集合。通常,这些取值按照从小到大的顺序排列,并以图表形式进行展示,但计数资料因其本身仅有分类属性而是一个例外。


       先看一个计数资料的简单例子。假设我正在进行一项关于选民态度的研究,选取500名选民组成的随机样本用于研究。我想知道的一则信息是样本成员的政治背景,于是询问他们是共和党、民主党还是无党派,结果发现样本中45%的成员是民主党,40%的成员是共和党,15%的成员属于无党派。政治背景是一个名义变量或者分类变量。由于名义变量是只有类别而无数值权重的变量,因此不能从高到低安排这一分布的取值。共和党员的取值不比民主党员或无党派人员的取值更大或更小,它们仅仅是不同的类别而已。所以我并不能试图按照取值从低到高来组织数据,而只是将其作为不同类别加以对待,并报告样本对象中归人各类别的百分比。


640.png

图1-2:民主党员、共和党员和无党派人员的分布饼图

下载 (1).jpeg

图1-3:民主党院、共和党员和无党派人员的分布柱状图


       图1-2中的饼图展示各组的百分比,简洁、鲜明。


       图1-3展示了相同的信息,x轴(横轴)表示政党取向,民主党、共和党和无党派,y轴(纵轴)表示样本数量。只需打量一下柱形,各组的百分比就一目了然,从中不难看出样本中哪种政党取向具有最高比例,以及各政党取向在样本比例方面的差异。


用图表来表示这一分布有许多种不同的方法,包括饼图、条形图、柱状图、气泡图等,以后的学习中我们还会遇到用不同统计图表来描述定量资料、等级资料、计量资料(掌握资料分类相当重要,再重复一遍)的情况,敬请期待。


选择适当的图形表示,关键在于切记使用图形的目的是使数据易于理解。图1- 2用饼图来描述分布,而图1-3用柱状图来展示数据。究竟哪个图最适合这些数据,将取决于个人偏好。  


做图、读图时需要注意细节,不仅要关注图中最醒目的特征,还得关注那些不太明显的特征,比如x轴和y轴所用的刻度。如果忽略了细节,图表就可能造成严重的误导。



没有账号?